在结肠息肉是众所周知的如通过结肠镜检查鉴定的癌症的前体或者有关诊断工作为症状,结肠直肠癌筛查或某些疾病的系统的监视。虽然大部分息肉是良性的,在数量,尺寸和息肉的表面结构是紧密相连的结肠癌的风险。有高的漏检率和不完全去除结肠息肉的存在由于可变性质,困难描绘异常,高复发率和结肠的解剖外形。过去,多种方法已建成自动化息肉检测与分割。然而,大多数方法的关键问题是,他们没有经过严格的大型多中心的专用数据集进行测试。因此,这些方法可能无法推广到不同人群的数据集,因为他们过度拟合到一个特定的人口和内镜监控。在这个意义上,我们已经从整合超过300名患者6个不同的中心策划的数据集。所述数据集包括与由六名高级肠胃验证息肉边界的精确划定3446个注释息肉标签单帧和序列数据。据我们所知,这是由一组计算科学家和专家肠胃的策划最全面的检测和像素级的细分数据集。此数据集已在起源的Endocv2021挑战旨在息肉检测与分割处理可推广的一部分。在本文中,我们提供全面的洞察数据结构和注释策略,标注的质量保证和技术验证我们的扩展EndoCV2021数据集,我们称之为PolypGen。
translated by 谷歌翻译
Majorana示威者是一项领先的实验,寻找具有高纯净锗探测器(HPGE)的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法,但是与传统分析相比,数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑,使我们能够从机器中学习以反馈传统分析。在这项工作中,我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型,以从数据中学习,并进行了基于游戏理论的模型可解释性研究,以了解分类功率的起源。通过从数据中学习,该分析识别重建参数之间的相关性,以进一步增强背景拒绝性能。通过从机器中学习,该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验(如传说)高度兼容,因为它可以同时在大量探测器上进行训练。
translated by 谷歌翻译
基于概念的解释性方法旨在使用一组预定义的语义概念来解释深度神经网络模型的预测。这些方法在新的“探针”数据集上评估了训练有素的模型,并将模型预测与该数据集中标记的视觉概念相关联。尽管他们受欢迎,但他们的局限性并未被文献所理解和阐明。在这项工作中,我们分析了基于概念的解释中的三个常见因素。首先,选择探针数据集对生成的解释有深远的影响。我们的分析表明,不同的探针数据集可能会导致非常不同的解释,并表明这些解释在探针数据集之外不可概括。其次,我们发现探针数据集中的概念通常比他们声称要解释的课程更不太明显,更难学习,这使解释的正确性提出了质疑。我们认为,仅在基于概念的解释中才能使用视觉上的显着概念。最后,尽管现有方法使用了数百甚至数千个概念,但我们的人类研究揭示了32个或更少的概念更严格的上限,除此之外,这些解释实际上不太有用。我们对基于概念的解释性方法的未来发展和分析提出建议。可以在\ url {https://github.com/princetonvisualai/overlookedfactors}找到我们的分析和用户界面的代码。
translated by 谷歌翻译
最近显示外部眼睛照片显示出糖尿病性视网膜疾病和HBA1C升高的迹象。在本文中,我们评估外部眼睛照片是否包含有关其他系统性医疗状况的信息。我们开发了一个深度学习系统(DLS),该系统将外部眼睛的照片作为输入,并预测多个全身参数,例如与肝脏有关的参数(白蛋白,AST);肾脏(EGFR使用无种族的2021 CKD-EPI肌酐方程,尿液ACR);骨与矿物质(钙);甲状腺(TSH);和血数(HGB,WBC,血小板)。开发利用了49,015例糖尿病患者的151,237张图像,在加利福尼亚州洛杉矶县的11个地点接受糖尿病眼镜筛查。评估重点是9个预先指定的全身参数,并利用了3个验证集(a,b,c),涵盖了28,869名患有和没有糖尿病的患者,在加利福尼亚州洛杉矶县和大亚特兰大地区的3个独立地点进行了眼睛筛查。我们将结合了可用临床人口统计学变量的基线模型(例如年龄,性别,种族/种族,糖尿病年)进行了比较。相对于基线,DLS在检测AST> 36,钙<8.6,egfr <60,HGB <11,血小板<150,ACR> = 300和WBC <4时,在检测AST> 36,钙<8.6,Egfr <60,HGB <60,HGB <60,calcium <8.6,Egfr <60,calcium <8.6和wbc <4时,达到了统计学上的显着性能,并且类似于开发集的人口),其中DLS的AUC超过基线的AUC,增长了5.2-19.4%。在验证集B和C方面,与开发集相比,患者人群的差异很大,DLS的表现优于ACR> = 300的基线,而HGB <11升至7.3-13.2%。我们的发现提供了进一步的证据,表明外部眼睛照片包含跨越多器官系统的全身健康生物标志物。需要进一步的工作来研究这些生物标志物是否以及如何转化为临床影响。
translated by 谷歌翻译
在过去的十年中,深度学习模型在机器学习的不同领域取得了巨大的成功。但是,这些模型的大小和复杂性使它们难以理解。为了使它们更容易解释,最近的一些作品着重于通过人类解剖的语义属性来解释深神网络的部分。但是,仅使用语义属性完全解释复杂的模型可能是不可能的。在这项工作中,我们建议使用一小部分无法解释的功能来增强这些属性。具体而言,我们开发了一个新颖的解释框架(通过标记和未标记分解的解释),将模型的预测分解为两个部分:一个可以通过语义属性的线性组合来解释,而另一部分则取决于未解释的功能。 。通过识别后者,我们能够分析模型的“无法解释的”部分,从而了解模型使用的信息。我们表明,一组未标记的功能可以推广到具有相同功能空间的多种型号,并将我们的作品与两种流行的面向属性的方法,可解释的基础分解和概念瓶颈进行比较,并讨论Elude提供的其他见解。
translated by 谷歌翻译
变压器语言模型的大规模自我监督的预培训已经推进了自然语言处理领域,并在跨申请中显示了蛋白质和DNA的生物“语言”的承诺。学习使用大型基因组序列的DNA序列的有效表示可以通过转移学习加速基因调控模型的发展。然而,为了精确模拟特异性细胞类型的基因调节和功能,不仅需要考虑DNA核苷酸序列中包含的信息,这主要是细胞类型之间的不变性,还要考虑局部化学和结构“表观遗传状态”染色体在细胞类型之间变化。这里,我们引入来自变压器(BERT)模型的双向编码器表示,该模型基于DNA序列和配对的表观遗传状态输入来学习表示,我们称之为表观脑栓(或ebert)。我们在整个人类基因组中使用蒙面语言模型目标以及跨越127种细胞类型预先列车。通过与脑系统的合作伙伴关系,第一次培训这种复杂模型,首次通过与脑系统合作,其CS-1系统提供所有预训练实验。我们通过展示细胞类型特定的转录因子绑定预测任务的强大性能来显示Ebert的转移学习潜力。我们的微调模型超过了来自编码梦想基准的13个评估数据集中的4个艺术表现的状态,并在挑战排行榜上获得3号的整体排名。我们探讨了表观遗传数据和任务特定功能增强的如何纳入影响转移学习绩效。
translated by 谷歌翻译
由于机器学习越来越多地应用于高冲击,高风险域,因此有许多新方法旨在使AI模型更具人类解释。尽管最近的可解释性工作增长,但缺乏对所提出的技术的系统评价。在这项工作中,我们提出了一种新的人类评估框架蜂巢(可视化解释的人类可解释性),用于计算机愿景中的不同解释性方法;据我们所知,这是它的第一个工作。我们认为,人类研究应该是正确评估方法对人类用户的可解释方式的金标。虽然由于与成本,研究设计和跨方法比较相关的挑战,我们常常避免人类研究,但我们描述了我们的框架如何减轻这些问题并进行IRB批准的四种方法,这些方法是代表解释性的多样性:GradCam,Bagnet ,protopnet和prodotree。我们的结果表明,解释(无论它们是否实际正确)发芽人类信任,但用户对用户不够明确,以区分正确和不正确的预测。最后,我们还开展框架以实现未来的研究,并鼓励更多以人以人为本的解释方法。
translated by 谷歌翻译
最近的一些研究描述了深层卷积神经网络,以诊断与人类专家相似甚至卓越表现的乳腺癌乳腺癌。最好的技术之一可以进行两种转移学习:第一个使用在自然图像上训练的模型来创建“补丁分类器”,该模型将小型子图表分类;第二个使用补丁分类器来扫描整个乳房X线照片并创建“单视图全图分类器”。我们建议进行第三次转移学习,以获取“两视图分类器”,以使用两种乳房X线摄影视图:双侧颅颅和中外侧倾斜。我们使用效率网络作为模型的基础。我们使用CBIS-DDSM数据集“端到端”训练整个系统。为了确保统计鲁棒性,我们使用以下方式两次测试系统,(a)5倍交叉验证; (b)数据集的原始培训/测试部门。我们的技术使用5倍的交叉验证达到0.9344的AUC(在ROC的误差率相等的误差率下,准确性,灵敏度和特异性为85.13%)。据我们所知,使用原始的数据集除法,我们的技术达到了0.8483,尽管我们知道的最高的AUC在此问题上,尽管每项工作的测试条件上的细微差异不允许进行准确的比较。推理代码和模型可在https://github.com/dpetrini/two-views-classifier上获得
translated by 谷歌翻译
In this paper we explore the task of modeling (semi) structured object sequences; in particular we focus our attention on the problem of developing a structure-aware input representation for such sequences. In such sequences, we assume that each structured object is represented by a set of key-value pairs which encode the attributes of the structured object. Given a universe of keys, a sequence of structured objects can then be viewed as an evolution of the values for each key, over time. We encode and construct a sequential representation using the values for a particular key (Temporal Value Modeling - TVM) and then self-attend over the set of key-conditioned value sequences to a create a representation of the structured object sequence (Key Aggregation - KA). We pre-train and fine-tune the two components independently and present an innovative training schedule that interleaves the training of both modules with shared attention heads. We find that this iterative two part-training results in better performance than a unified network with hierarchical encoding as well as over, other methods that use a {\em record-view} representation of the sequence \cite{de2021transformers4rec} or a simple {\em flattened} representation of the sequence. We conduct experiments using real-world data to demonstrate the advantage of interleaving TVM-KA on multiple tasks and detailed ablation studies motivating our modeling choices. We find that our approach performs better than flattening sequence objects and also allows us to operate on significantly larger sequences than existing methods.
translated by 谷歌翻译
Optical coherence tomography (OCT) captures cross-sectional data and is used for the screening, monitoring, and treatment planning of retinal diseases. Technological developments to increase the speed of acquisition often results in systems with a narrower spectral bandwidth, and hence a lower axial resolution. Traditionally, image-processing-based techniques have been utilized to reconstruct subsampled OCT data and more recently, deep-learning-based methods have been explored. In this study, we simulate reduced axial scan (A-scan) resolution by Gaussian windowing in the spectral domain and investigate the use of a learning-based approach for image feature reconstruction. In anticipation of the reduced resolution that accompanies wide-field OCT systems, we build upon super-resolution techniques to explore methods to better aid clinicians in their decision-making to improve patient outcomes, by reconstructing lost features using a pixel-to-pixel approach with an altered super-resolution generative adversarial network (SRGAN) architecture.
translated by 谷歌翻译